| Métrica | Valor |
|---|---|
| Número de filas | 1460 |
| Número de columnas | 81 |
| Id | MSSubClass | MSZoning | LotFrontage | LotArea | Street | Alley | LotShape | LandContour | Utilities |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 60 | RL | 65 | 8450 | Pave | NA | Reg | Lvl | AllPub |
| 2 | 20 | RL | 80 | 9600 | Pave | NA | Reg | Lvl | AllPub |
| 3 | 60 | RL | 68 | 11250 | Pave | NA | IR1 | Lvl | AllPub |
| 4 | 70 | RL | 60 | 9550 | Pave | NA | IR1 | Lvl | AllPub |
| 5 | 60 | RL | 84 | 14260 | Pave | NA | IR1 | Lvl | AllPub |
| 6 | 50 | RL | 85 | 14115 | Pave | NA | IR1 | Lvl | AllPub |
| Id | MSSubClass | MSZoning | LotFrontage | LotArea | Street | Alley | LotShape | LandContour | Utilities | |
|---|---|---|---|---|---|---|---|---|---|---|
| 1455 | 1455 | 20 | FV | 62 | 7500 | Pave | Pave | Reg | Lvl | AllPub |
| 1456 | 1456 | 60 | RL | 62 | 7917 | Pave | NA | Reg | Lvl | AllPub |
| 1457 | 1457 | 20 | RL | 85 | 13175 | Pave | NA | Reg | Lvl | AllPub |
| 1458 | 1458 | 70 | RL | 66 | 9042 | Pave | NA | Reg | Lvl | AllPub |
| 1459 | 1459 | 20 | RL | 68 | 9717 | Pave | NA | Reg | Lvl | AllPub |
| 1460 | 1460 | 20 | RL | 75 | 9937 | Pave | NA | Reg | Lvl | AllPub |
Observamos que el dataset contiene una complejidad adecuada y es necesaria la limpieza y transformación de datos para poder detectar relaciones, outliers y patrones en los datos.
| count | mean | std | min | Q1.25% | Median.50% | Q3.75% | max | mediana | |
|---|---|---|---|---|---|---|---|---|---|
| Id | 1460 | 730.50 | 421.61 | 1 | 365.75 | 730.5 | 1095.25 | 1460 | 730.5 |
| MSSubClass | 1460 | 56.90 | 42.30 | 20 | 20.00 | 50.0 | 70.00 | 190 | 50.0 |
| LotFrontage | 1201 | 70.05 | 24.28 | 21 | 59.00 | 69.0 | 80.00 | 313 | 69.0 |
| LotArea | 1460 | 10516.83 | 9981.26 | 1300 | 7553.50 | 9478.5 | 11601.50 | 215245 | 9478.5 |
| OverallQual | 1460 | 6.10 | 1.38 | 1 | 5.00 | 6.0 | 7.00 | 10 | 6.0 |
| OverallCond | 1460 | 5.58 | 1.11 | 1 | 5.00 | 5.0 | 6.00 | 9 | 5.0 |
| YearBuilt | 1460 | 1971.27 | 30.20 | 1872 | 1954.00 | 1973.0 | 2000.00 | 2010 | 1973.0 |
| YearRemodAdd | 1460 | 1984.87 | 20.65 | 1950 | 1967.00 | 1994.0 | 2004.00 | 2010 | 1994.0 |
| MasVnrArea | 1452 | 103.69 | 181.07 | 0 | 0.00 | 0.0 | 166.00 | 1600 | 0.0 |
| BsmtFinSF1 | 1460 | 443.64 | 456.10 | 0 | 0.00 | 383.5 | 712.25 | 5644 | 383.5 |
| BsmtFinSF2 | 1460 | 46.55 | 161.32 | 0 | 0.00 | 0.0 | 0.00 | 1474 | 0.0 |
| BsmtUnfSF | 1460 | 567.24 | 441.87 | 0 | 223.00 | 477.5 | 808.00 | 2336 | 477.5 |
| TotalBsmtSF | 1460 | 1057.43 | 438.71 | 0 | 795.75 | 991.5 | 1298.25 | 6110 | 991.5 |
| X1stFlrSF | 1460 | 1162.63 | 386.59 | 334 | 882.00 | 1087.0 | 1391.25 | 4692 | 1087.0 |
| X2ndFlrSF | 1460 | 346.99 | 436.53 | 0 | 0.00 | 0.0 | 728.00 | 2065 | 0.0 |
| LowQualFinSF | 1460 | 5.84 | 48.62 | 0 | 0.00 | 0.0 | 0.00 | 572 | 0.0 |
| GrLivArea | 1460 | 1515.46 | 525.48 | 334 | 1129.50 | 1464.0 | 1776.75 | 5642 | 1464.0 |
| BsmtFullBath | 1460 | 0.43 | 0.52 | 0 | 0.00 | 0.0 | 1.00 | 3 | 0.0 |
| BsmtHalfBath | 1460 | 0.06 | 0.24 | 0 | 0.00 | 0.0 | 0.00 | 2 | 0.0 |
| FullBath | 1460 | 1.57 | 0.55 | 0 | 1.00 | 2.0 | 2.00 | 3 | 2.0 |
| HalfBath | 1460 | 0.38 | 0.50 | 0 | 0.00 | 0.0 | 1.00 | 2 | 0.0 |
| BedroomAbvGr | 1460 | 2.87 | 0.82 | 0 | 2.00 | 3.0 | 3.00 | 8 | 3.0 |
| KitchenAbvGr | 1460 | 1.05 | 0.22 | 0 | 1.00 | 1.0 | 1.00 | 3 | 1.0 |
| TotRmsAbvGrd | 1460 | 6.52 | 1.63 | 2 | 5.00 | 6.0 | 7.00 | 14 | 6.0 |
| Fireplaces | 1460 | 0.61 | 0.64 | 0 | 0.00 | 1.0 | 1.00 | 3 | 1.0 |
| GarageYrBlt | 1379 | 1978.51 | 24.69 | 1900 | 1961.00 | 1980.0 | 2002.00 | 2010 | 1980.0 |
| GarageCars | 1460 | 1.77 | 0.75 | 0 | 1.00 | 2.0 | 2.00 | 4 | 2.0 |
| GarageArea | 1460 | 472.98 | 213.80 | 0 | 334.50 | 480.0 | 576.00 | 1418 | 480.0 |
| WoodDeckSF | 1460 | 94.24 | 125.34 | 0 | 0.00 | 0.0 | 168.00 | 857 | 0.0 |
| OpenPorchSF | 1460 | 46.66 | 66.26 | 0 | 0.00 | 25.0 | 68.00 | 547 | 25.0 |
| EnclosedPorch | 1460 | 21.95 | 61.12 | 0 | 0.00 | 0.0 | 0.00 | 552 | 0.0 |
| X3SsnPorch | 1460 | 3.41 | 29.32 | 0 | 0.00 | 0.0 | 0.00 | 508 | 0.0 |
| ScreenPorch | 1460 | 15.06 | 55.76 | 0 | 0.00 | 0.0 | 0.00 | 480 | 0.0 |
| PoolArea | 1460 | 2.76 | 40.18 | 0 | 0.00 | 0.0 | 0.00 | 738 | 0.0 |
| MiscVal | 1460 | 43.49 | 496.12 | 0 | 0.00 | 0.0 | 0.00 | 15500 | 0.0 |
| MoSold | 1460 | 6.32 | 2.70 | 1 | 5.00 | 6.0 | 8.00 | 12 | 6.0 |
| YrSold | 1460 | 2007.82 | 1.33 | 2006 | 2007.00 | 2008.0 | 2009.00 | 2010 | 2008.0 |
| SalePrice | 1460 | 180921.20 | 79442.50 | 34900 | 129975.00 | 163000.0 | 214000.00 | 755000 | 163000.0 |
Estas estadísticas descriptivas nos permiten tener una idea general de la distribución de las variables numéricas en el dataset. A oartir de estos datos podemos explorar variables con gran variabilidad y outliers como:
SalePrice: Es la variable objetivo; analizar su distribución es esencial para detectar sesgos o valores atípicos que puedan afectar modelos predictivos.
GrLivArea, LotArea, X1stFlrSF y TotalBsmtSF: Estas variables relacionadas con áreas muestran amplios rangos y desviaciones estándar elevadas, lo que indica una variabilidad considerable. Evaluar su distribución ayudará a entender cómo influyen en el precio.
OverallQual y OverallCond: Son escalas de calidad y condición que, a pesar de ser discretas, pueden tener un impacto directo en el precio.
YearBuilt y YearRemodAdd: La antigüedad y el año de remodelación pueden explicar cambios en la valoración de las viviendas. Su distribución puede revelar tendencias históricas y patrones de renovación.
LotFrontage y MasVnrArea: Aunque LotFrontage presenta datos faltantes, es relevante para entender la exposición del lote. MasVnrArea muestra muchos ceros y algunos valores altos, lo que sugiere la presencia de outliers que vale la pena investigar.
GarageArea y GarageCars: Estas variables relacionadas con el garaje también presentan variabilidad notable y pueden influir en el precio, es útil evaluar si existen distribuciones sesgadas o valores extremos.
Este grupo de variables muestra una mayoría de casas unifamiliares, predominancia en casasde 2 y 1 piso, techos de tipo Gable y materiales de techos CompShg. La mayoría de las casas tienen cimientos de concreto y madera. Estos patrones pueden ser útiles para identificar características comunes en la construcción de las propiedades.
La mayoría de las casas presentan una condición y calidad exterior promedio, con pocas en estado excelente o deficiente. En las cubiertas exteriores, domina “VinylSd” tanto en la primera como en la segunda capa, seguido a cierta distancia por “MetalSd”, “Wd Sdng” y “HdBoard”. La mampostería vista (MasVnrType) más frecuente es “BrkFace”, con “Stone” como segunda opción. Esto sugiere un mercado residencial donde predomina un nivel de acabado estándar y revestimientos vinílicos o de metal, con menos variedad en acabados de alta o baja calidad.
La mayoría de los sótanos están en condición “TA” y calidad “TA” o “Gd”, con pocos casos “Ex” o “Fa”. La exposición del sótano suele ser “No” (sin exposición), aunque también hay un grupo con “Gd”, “Mn” y “Av”. Para la terminación del sótano, “GLQ” y “Unf” predominan en BsmtFinType1, mientras que “Unf” es casi absoluto en BsmtFinType2, indicando que muchos sótanos adicionales están sin terminar o tienen acabados básicos.
La mayoría de las casas tienen garajes adjuntos, seguidos por garajes separados y sin garaje. En cuanto al acabado del garaje, predominan los garajes sin acabado o con acabado de calidad estándar. La calidad y condición del garaje tienden a ser promedio, con pocos casos en los extremos. Estos patrones sugieren que la mayoría de las propiedades tienen garajes estándar o básicos, lo que puede influir en el precio de venta.
La mayoría de las casas tienen calefacción estándar (GasA) y calidad promedio (TA). La electricidad es principalmente SBrkr, con algunos casos de FuseA y FuseF. La mayoría de las casas tienen aire acondicionado central, lo que sugiere un nivel de comodidad y eficiencia energética estándar en la mayoría de las propiedades.
La mayoría de las propiedades tienen terrenos planos o ligeramente inclinados, con configuraciones de lote internas y formas regulares. Estos patrones sugieren que la mayoría de las propiedades están en áreas urbanas o suburbanas, con lotes estándar y fácil acceso a servicios y vías de comunicación.
La mayoría de las propiedades tienen acceso por calle pavimentada y no tienen acceso a callejón. Los vecindarios más comunes son NAmes, CollgCr y OldTown, lo que sugiere una concentración en áreas urbanas o suburbanas. La mayoría de las propiedades tienen acceso pavimentado, lo que indica una buena accesibilidad a las vías principales.
La mayoría de las propiedades se venden bajo condiciones normales y tienen funcionalidad típica. La calidad de la chimenea es promedio, con pocos casos en los extremos. La mayoría de las propiedades no tienen cercas, lo que sugiere una baja preocupación por la seguridad o privacidad en el vecindario.
Siendo esta la variable objetivo,observamos una distribución sesgada a la derecha, Esta asimetría puede afectar métodos estadísticos que asumen distribuciones normales. Observamos outliers en la parte superior de la distribución, lo que sugiere la presencia de propiedades muy caras que pueden afectar la predicción de precios.
Boxplot: Se aprecia que la mayoría de los precios se concentran en un rango intercuartílico entre 130,000 y 210,000 dólares, pero existen varios puntos extremos en la cola superior. Esto indica la presencia de propiedades con precios significativamente más altos.
Histograma con curva de densidad: La distribución se observa sesgada a la derecha, lo que se confirma por la diferencia entre la mediana y la media. Esto sugiere que, para algunos análisis o modelado, podría ser útil aplicar una transformación para aproximar una distribución normal.
GrLivArea, LotArea, X1stFlrSF y TotalBsmtSF:
Los gráficos confirman que las variables de área tienden a ser altamente asimétricas y presentan outliers. Esto será fundamental al momento de construir modelos predictivos y al realizar inferencias estadísticas, ya que puede ser necesario transformar o estratificar estas variables para obtener resultados más confiables.
Valores entre 1 y 10.
Mayoría entre 5 y 7.
Pico alrededor de 5-6.
Pocos valores en los extremos.
Valores entre 1 y 9.
Pico muy marcado en 5.
Caja centrada en 5-6.
Pocos casos en extremos (1, 9).
Rango amplio (1870–2010).
Incremento progresivo hasta 2000.
Concentración alta en décadas recientes.
Boxplot concentrado en 1950–2000.
Rango 1950–2010.
Mayor actividad de remodelación cerca de 1990 y 2010, 1950 presenta remodelaciones altas.
Boxplot abarca 1960–2000.
Pocos valores anteriores a 1960.
Pico cercano a 60-70.
Muchos valores faltantes.
Cola derecha larga, outliers por encima de 150.
Mayoría en 0 (sin acabado de mampostería).
Fuerte sesgo a la derecha.
Outliers hasta 1600.
Mayoría entre 400–600.
Distribución sesgada a la derecha.
Outliers por encima de 1000.
Pico en 2 autos.
Rango 0–4.
Pocos outliers en 4.
Las variables numéricas, como áreas y precios, se distribuyen con asimetría a la derecha y tienen outliers significativos. Las variables de calidad se concentran en rangos medios y se detectan datos faltantes en algunas. Esto indica que será necesario aplicar transformaciones , tratar outliers y profundizar en el análisis de las variables categóricas para extraer patrones relevantes en la valoración de propiedades
| Variable | MissingCount | MissingPercent | UniqueValues |
|---|---|---|---|
| LotFrontage | 259 | 17.74 | 65, 80, 68, 60, 84, 85, 75, NA, 51, 50, 70, 91, 72, 66, 101, 57, 44, 110, 98, 47, 108, 112, 74, 115, 61, 48, 33, 52, 100, 24, 89, 63, 76, 81, 95, 69, 21, 32, 78, 121, 122, 40, 105, 73, 77, 64, 94, 34, 90, 55, 88, 82, 71, 120, 107, 92, 134, 62, 86, 141, 97, 54, 41, 79, 174, 99, 67, 83, 43, 103, 93, 30, 129, 140, 35, 37, 118, 87, 116, 150, 111, 49, 96, 59, 36, 56, 102, 58, 38, 109, 130, 53, 137, 45, 106, 104, 42, 39, 144, 114, 128, 149, 313, 168, 182, 138, 160, 152, 124, |
| Alley | 1369 | 93.77 | NA, Grvl, Pave |
| PoolQC | 1453 | 99.52 | NA, Ex, Fa, Gd |
| Fence | 1179 | 80.75 | NA, MnPrv, GdWo, GdPrv, MnWw |
| MiscFeature | 1406 | 96.30 | NA, Shed, Gar2, Othr, TenC |
| Variable | Min | X1. | X5. | X25. | Median | X75. | X95. | X99. | Max |
|---|---|---|---|---|---|---|---|---|---|
| SalePrice | 34900 | 61815.97 | 88000.00 | 129975.00 | 163000.0 | 214000.00 | 326100.00 | 442567.01 | 755000 |
| GrLivArea | 334 | 692.18 | 848.00 | 1129.50 | 1464.0 | 1776.75 | 2466.10 | 3123.48 | 5642 |
| LotArea | 1300 | 1680.00 | 3311.70 | 7553.50 | 9478.5 | 11601.50 | 17401.15 | 37567.64 | 215245 |
| X1stFlrSF | 334 | 520.00 | 672.95 | 882.00 | 1087.0 | 1391.25 | 1831.25 | 2219.46 | 4692 |
| TotalBsmtSF | 0 | 0.00 | 519.30 | 795.75 | 991.5 | 1298.25 | 1753.00 | 2155.05 | 6110 |
| MasVnrArea | 0 | 0.00 | 0.00 | 0.00 | 0.0 | 166.00 | 456.00 | 791.92 | 1600 |
| GarageArea | 0 | 0.00 | 0.00 | 334.50 | 480.0 | 576.00 | 850.10 | 1002.79 | 1418 |
Se definen grupos de variables como la variable objetivo y las variables numéricas de área, calidad y años, para evaluar su normalidad mediante pruebas estadísticas. Los resultados de las pruebas de normalidad se presentan a continuación:
##
##
## Table: Pruebas de Normalidad para SalePrice
##
## |Variable |Test | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |SalePrice |Shapiro-Wilk | 0.8697| 0|
## |SalePrice |Anderson-Darling | 41.6920| 0|
## |SalePrice |Kolmogorov-Smirnov | 0.1237| 0|
## |SalePrice |Lilliefors | 0.1237| 0|
##
##
## Table: Pruebas de Normalidad para GrLivArea
##
## |Variable |Test | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |GrLivArea |Shapiro-Wilk | 0.9280| 0|
## |GrLivArea |Anderson-Darling | 14.5322| 0|
## |GrLivArea |Kolmogorov-Smirnov | 0.0675| 0|
## |GrLivArea |Lilliefors | 0.0675| 0|
##
##
## Table: Pruebas de Normalidad para LotArea
##
## |Variable |Test | Statistic| P.value|
## |:--------|:------------------|---------:|-------:|
## |LotArea |Shapiro-Wilk | 0.3511| 0|
## |LotArea |Anderson-Darling | 198.4183| 0|
## |LotArea |Kolmogorov-Smirnov | 0.2515| 0|
## |LotArea |Lilliefors | 0.2515| 0|
##
##
## Table: Pruebas de Normalidad para X1stFlrSF
##
## |Variable |Test | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |X1stFlrSF |Shapiro-Wilk | 0.9269| 0|
## |X1stFlrSF |Anderson-Darling | 19.1651| 0|
## |X1stFlrSF |Kolmogorov-Smirnov | 0.0869| 0|
## |X1stFlrSF |Lilliefors | 0.0869| 0|
##
##
## Table: Pruebas de Normalidad para TotalBsmtSF
##
## |Variable |Test | Statistic| P.value|
## |:-----------|:------------------|---------:|-------:|
## |TotalBsmtSF |Shapiro-Wilk | 0.9174| 0|
## |TotalBsmtSF |Anderson-Darling | 17.2764| 0|
## |TotalBsmtSF |Kolmogorov-Smirnov | 0.0760| 0|
## |TotalBsmtSF |Lilliefors | 0.0760| 0|
##
##
## Table: Pruebas de Normalidad para OverallQual
##
## |Variable |Test | Statistic| P.value|
## |:-----------|:------------------|---------:|-------:|
## |OverallQual |Shapiro-Wilk | 0.9480| 0|
## |OverallQual |Anderson-Darling | 35.2300| 0|
## |OverallQual |Kolmogorov-Smirnov | 0.1552| 0|
## |OverallQual |Lilliefors | 0.1552| 0|
##
##
## Table: Pruebas de Normalidad para OverallCond
##
## |Variable |Test | Statistic| P.value|
## |:-----------|:------------------|---------:|-------:|
## |OverallCond |Shapiro-Wilk | 0.8289| 0|
## |OverallCond |Anderson-Darling | 125.2851| 0|
## |OverallCond |Kolmogorov-Smirnov | 0.3200| 0|
## |OverallCond |Lilliefors | 0.3200| 0|
##
##
## Table: Pruebas de Normalidad para YearBuilt
##
## |Variable |Test | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |YearBuilt |Shapiro-Wilk | 0.9256| 0|
## |YearBuilt |Anderson-Darling | 30.9635| 0|
## |YearBuilt |Kolmogorov-Smirnov | 0.1209| 0|
## |YearBuilt |Lilliefors | 0.1209| 0|
##
##
## Table: Pruebas de Normalidad para YearRemodAdd
##
## |Variable |Test | Statistic| P.value|
## |:------------|:------------------|---------:|-------:|
## |YearRemodAdd |Shapiro-Wilk | 0.8628| 0|
## |YearRemodAdd |Anderson-Darling | 71.4944| 0|
## |YearRemodAdd |Kolmogorov-Smirnov | 0.1745| 0|
## |YearRemodAdd |Lilliefors | 0.1745| 0|
##
##
## Table: Pruebas de Normalidad para MasVnrArea
##
## |Variable |Test | Statistic| P.value|
## |:----------|:------------------|---------:|-------:|
## |MasVnrArea |Shapiro-Wilk | 0.6393| 0|
## |MasVnrArea |Anderson-Darling | 182.6180| 0|
## |MasVnrArea |Kolmogorov-Smirnov | 0.3095| 0|
## |MasVnrArea |Lilliefors | 0.3095| 0|
##
##
## Table: Pruebas de Normalidad para GarageArea
##
## |Variable |Test | Statistic| P.value|
## |:----------|:------------------|---------:|-------:|
## |GarageArea |Shapiro-Wilk | 0.9753| 0|
## |GarageArea |Anderson-Darling | 9.2333| 0|
## |GarageArea |Kolmogorov-Smirnov | 0.0753| 0|
## |GarageArea |Lilliefors | 0.0753| 0|
Las pruebas de normalidad en todos los grupos de variables arrojan p-valores extremadamente bajos (p < 2.2e-16 en la mayoría de los casos), lo que indica que ninguna de estas variables sigue una distribución normal según los test de Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov y Lilliefors. Esto es especialmente notable en variables como SalePrice, LotArea y MasVnrArea, que presentan un marcado sesgo a la derecha y outliers. Aunque algunas variables tienen valores de W relativamente altos, el tamaño de la muestra (n=1460) hace que incluso desviaciones leves se vuelvan estadísticamente significativas. En conclusión, la evidencia sugiere que es necesario aplicar transformaciones y/o estrategias de manejo de outliers para aproximar la normalidad y estabilizar la varianza antes de proceder con el modelado predictivo.
A partir de esta exploración inicial, se identificaron patrones y características clave en las variables categóricas y numéricas. Estos insights serán fundamentales para la limpieza, transformación y modelado de los datos, permitiendo construir modelos predictivos precisos y robustos.
Adicionalmente,surgen interrogantes sobre la relación entre las variables y su impacto en el precio de venta, por lo que previo a las transformaciones las cuales se responden de manera iterativa en el análisis exploratorio de datos. A continuación, se presentan las preguntas de investigación que guiarán el análisis y modelado de los datos:
GrLivArea vs SalePrice
En el diagrama de dispersión se aprecia una tendencia claramente
positiva: a mayor superficie habitable (GrLivArea), mayor
tiende a ser el precio de venta.
LotArea vs SalePrice
Existe también una relación positiva, pero es más dispersa que
GrLivArea. Se ven valores muy altos de LotArea que no siempre conllevan
precios igual de altos, lo cual sugiere que el tamaño del lote por sí
solo no determina el precio de forma tan directa como el área
habitable.
X1stFlrSF vs SalePrice (por Neighborhood)
En la gráfica se percibe nuevamente una relación creciente entre la
superficie del primer piso y el precio.
TotalBsmtSF vs SalePrice (por MSZoning)
De igual modo, se ve correlación positiva entre el tamaño del sótano y
el precio.
Las áreas de la vivienda guardan una relación positiva con SalePrice. Esa relación se modula por la calidad/condición de la vivienda y por la ubicación .
YearBuilt vs SalePrice
El gráfico de dispersión con una línea de tendencia sugiere que
las casas más nuevas suelen tener precios promedio más
altos.
SalePrice por década de construcción
En la gráfica de cajas (boxplot) por década, se ve un incremento gradual
en el precio mediano con cada década más reciente, aunque hay traslapes
entre décadas y algunos outliers altos en décadas anteriores.
YearRemodAdd vs SalePrice
El diagrama de dispersión muestra una tendencia similar: las casas con
remodelaciones más recientes suelen presentar precios mayores. Se
evidencia que la remodelación eleva el valor de propiedades
antiguas.
Las viviendas construidas o renovadas más recientemente tienden a tener precios mayores, aunque propiedades muy antiguas y con alto mantenimiento pueden equipararse a precios de casas más nuevas.
SalePrice por BldgType
El boxplot muestra que 1Fam suele tener la mediana de precios más alta.
Otras tipologías presentan mediana y dispersión de precios algo
menores.
SalePrice por HouseStyle
Se ven estilos como 1Story, 1.5Fin, 2Story, etc.
SalePrice por BldgType y HouseStyle
(combinados)
Se confirma que las unifamiliares de 2 pisos tienden a precios más
altos. Los demás estilos y tipos presentan menor valor medio, aunque con
outliers en todos los grupos.
SalePrice por Exterior1st y Exterior2nd
Los boxplots muestran diferencias entre materiales: algunos como “Stone”
o “Brick” tienen medianas de precio más altas. Acabados más económicos
tienden a mediana inferior.
SalePrice por MasVnrType
Se ven categorías como “BrkFace”, “Stone”, “None”. “Stone” y “BrkFace”
suelen asociarse a valores más altos que “None”.
MasVnrArea vs SalePrice
El diagrama de dispersión y la línea de tendencia reflejan una
correlación positiva: cuanto mayor es el área de recubrimiento en
mampostería (ladrillo, piedra, etc.), mayor suele ser el precio de
venta.
Los acabados exteriores y la presencia de mampostería se asocian con
precios más altos, indicando que la calidad y estética exterior añade
valor.
SalePrice vs BsmtQual, BsmtCond,
BsmtFinType
Los boxplots muestran que calidades altas (Ex, Gd) y condiciones buenas
se asocian con precios medianos superiores. BsmtFinType (GLQ, ALQ)
—acabados de mayor nivel— también suben el precio respecto a un sótano
sin terminar (Unf).
BsmtFinSF1 y BsmtFinSF2 vs SalePrice
Los diagramas de dispersión evidencian una relación positiva: a más
metros cuadrados terminados en el sótano, mayor precio.
Un sótano bien calificado y con superficies terminadas aumenta el
espacio habitable y, por ende, el valor de la vivienda.
SalePrice por GarageType
Viviendas con garajes “Attached” o “BuiltIn” suelen tener precios
medianos mayores que aquellas con “CarPort” o “NA” .
GarageArea vs SalePrice
Se ve una correlación positiva: un garaje más grande
tiende a asociarse con precios más altos.
GarageCars vs SalePrice
La línea que conecta la media según el número de coches sube de forma
notable: garajes de 2-3 plazas suelen estar en rangos de precio más
elevados que los de 1 plaza.
SalePrice por GarageQual y GarageCond
Garajes con calidades superiores (Ex, Gd) presentan precios medianos
notablemente más altos. Condiciones regulares (TA) o pobres (Po) reducen
la mediana.
Un garaje amplio, con capacidad suficiente y buena calidad incrementa el
valor de la vivienda, confirmando su importancia en la percepción del
comprador.
¿Existen patrones de desequilibrio o baja representatividad en ciertas variables categóricas (por ejemplo, Alley, PoolQC, MiscFeature) que requieran agrupar categorías o realizar recodificaciones para un análisis más fiable?
| Alley | Count |
|---|---|
| Grvl | 50 |
| Pave | 41 |
| NA | 1369 |
| PoolQC | Count |
|---|---|
| Ex | 2 |
| Fa | 2 |
| Gd | 3 |
| NA | 1453 |
| MiscFeature | Count |
|---|---|
| Gar2 | 2 |
| Othr | 2 |
| Shed | 49 |
| TenC | 1 |
| NA | 1406 |
Frecuencia de Alley
El gráfico de barras muestra que la mayoría de los registros están en
“NA” , y muy pocos tienen “Grvl” o “Pave”. Esto indica fuerte
desequilibrio.
Frecuencia de PoolQC
La gran mayoría también aparece como “NA”, y solo un puñado de viviendas
tiene calificaciones de piscina (Ex, Gd, etc.). Claramente hay pocas
casas con piscina.
Frecuencia de MiscFeature
De nuevo, “NA” es dominante. Las categorías como “Shed”, “Tenc”, etc.
son muy minoritarias.
Estas variables tienen muchos valores nulos o categorías con muy pocas
observaciones, por lo que, para un análisis o modelado predictivo,
probablemente se necesite agrupar, recodificar o descartar en ciertos
casos.
| LotShape | Count |
|---|---|
| IR1 | 484 |
| IR2 | 41 |
| IR3 | 10 |
| Reg | 925 |
| LandContour | Count |
|---|---|
| Bnk | 63 |
| HLS | 50 |
| Low | 36 |
| Lvl | 1311 |
| Street | Count |
|---|---|
| Grvl | 6 |
| Pave | 1454 |
| Utilities | Count |
|---|---|
| AllPub | 1459 |
| NoSeWa | 1 |
SalePrice por LotShape
Los boxplots muestran que lotes de forma regular (Reg) tienden a un
precio mediano más alto, mientras que lotes muy irregulares (IR3) suelen
tener precios más bajos.
SalePrice por LandContour
Los terrenos “Lvl” (nivelados) muestran, en general, medianas más altas
que “Bnk” o “HLS” (terrenos con pendientes). No obstante, se observan
outliers en todos los grupos.
SalePrice por Street
Calles pavimentadas (Pave) se asocian a precios más elevados que calles
de grava (Grvl). La diferencia no es tan marcada como en otras
variables, pero sí visible.
SalePrice por Utilities
Tener todos los servicios públicos (AllPub) presenta una mediana
superior frente a “NoSeWa”. La mayoría de propiedades se concentran en
“AllPub”, con pocas en la otra categoría.
Aunque no tan determinantes como el área o la calidad de construcción,
estas variables de configuración y servicios del terreno influyen en la
valoración final, especialmente cuando se combinan con la ubicación
.
| Variable | Skewness | |
|---|---|---|
| SalePrice | SalePrice | 1.88 |
| GrLivArea | GrLivArea | 1.37 |
| LotArea | LotArea | 12.20 |
| TotalBsmtSF | TotalBsmtSF | 1.52 |
| GarageArea | GarageArea | 0.18 |
| MasVnrArea | MasVnrArea | 2.67 |
Histogramas y boxplots de SalePrice y GrLivArea
SalePrice: Presenta una distribución sesgada a la derecha (right-skewed) con algunos outliers muy altos.
GrLivArea: También muestra outliers en la cola
derecha y una distribución asimétrica.
Esto sugiere que, para un modelo de regresión, podría
ser beneficioso aplicar transformaciones logarítmicas o
alguna técnica de robustez que maneje valores extremos.
SalePrice y GrLivArea tienen outliers y sesgo. Para un análisis predictivo, es habitual considerar log(SalePrice) y, a veces, log(GrLivArea), o bien detectar y tratar outliers que puedan distorsionar la estimación.
A partir de todos los gráficos:
Calidad (OverallQual, BsmtQual, GarageQual,
etc.):
Las viviendas de mejor calidad y en buen estado destacan con precios
altos en todos los ejes (área, sótano, garaje).
Área (GrLivArea, TotalBsmtSF, LotArea):
El tamaño habitable es uno de los principales impulsores del precio; sin
embargo, si la calidad es baja o la ubicación desfavorable, el precio no
sube tanto.
Ubicación y servicios (Neighborhood, MSZoning, Street,
Utilities):
Zonas residenciales codiciadas y servicios completos pueden hacer que,
incluso con áreas menores, se alcancen precios similares a los de casas
grandes en barrios menos deseados.
En conjunto, una casa grande, con acabados de calidad y en un vecindario atractivo, se sitúa en la parte alta del rango de precios. Por el contrario, deficiencias en cualquiera de estas dimensiones pueden limitar el valor final de la vivienda.
La exploración inicial de los datos perimitió identificar que para una mejor comprensión y modelado de los datos es necesario transformar y preprocesar el conjunto de datos. Dentro de las transformaciones necesarias a realizar se detalllan las siguientes:
Manejo de NAs:
Reemplazar NAs con “None” en variables categóricas donde la ausencia sea semánticamente “no existe”.
Colocar 0 en variables de área donde no exista sótano/garaje.
Decidir si eliminar variables con demasiados NAs irrelevantes.
Agrupación de categorías poco frecuentes:
Codificación:
One-Hot para nominales (Neighborhood, BldgType, etc.).
Ordinal para calidades y condiciones (Ex > Gd > TA > Fa > Po).
Outliers:
Evaluar la eliminación o recorte (capping) de valores extremadamente altos en variables como SalePrice, GrLivArea, LotArea.
Transformar SalePrice y otras variables con log para reducir skew.
Feature engineering:
Crear variables de área total, antigüedad, total de baños, puntuaciones de calidad, etc.
Comprobar su correlación con SalePrice para validarlas.
Escalado:
Validación:
## [1] "Hopkins statistic: 0.9998"
El estadístico de Hopkins es un valor entre 0 y 1 que mide la tendencia de un conjunto de datos a formar clusters. Un valor cercano a 0.5 indica aleatoriedad, mientras que valores cercanos a 0 o 1 sugieren estructura. En este caso, el valor obtenido es 0.9998, lo que indica que los datos tienen una estructura significativa y son adecuados para el clustering. ### VAT
## [1] "dist"
## [1] 0 1
Se observa que la matriz de distancias presenta una estructura clara,
con bloques de observaciones similares en color blanco y líneas oscuras
que separan grupos de observaciones. Esto sugiere que los datos tienen
una estructura no aleatoria y son adecuados para el clustering.
La gráfica muestra que el codo se encuentra en k = 4, lo que sugiere que este es el número óptimo de clusters para el conjunto de datos. ### K-Means
## K-means clustering with 4 clusters of sizes 89, 280, 191, 146
##
## Cluster means:
## SalePrice_log GrLivArea_log LotArea_log OverallQual YearBuilt
## 1 -0.743335055 -1.6085131 -0.3407302 -0.6400492 -0.4148627
## 2 0.945435760 0.5778256 0.3541634 1.2151516 0.9325959
## 3 0.005393496 0.1155790 0.3923843 -0.3179807 -0.3386817
## 4 0.299182712 0.4274742 0.1652007 0.2295470 0.3218145
## TotalBsmtSF_log GarageArea_log
## 1 -0.03838614 -0.86096265
## 2 0.81987820 0.68592153
## 3 0.53076469 0.08985027
## 4 -1.06890316 0.08653548
##
## Clustering vector:
## 1 2 3 4 5 6 7 8 10 11 12 16 17 18 20 22
## 4 3 2 4 2 4 2 3 2 2 3 3 1 2 2 1
## 23 25 26 28 29 30 31 32 33 35 38 39 40 43 44 46
## 2 2 3 1 2 3 2 2 3 3 1 2 2 4 1 2
## 48 50 51 53 55 56 57 58 60 61 66 68 69 71 72 79
## 3 4 2 3 2 2 2 2 3 2 4 2 1 2 4 3
## 80 81 84 85 87 89 93 95 96 98 99 100 101 104 105 109
## 4 2 3 4 2 2 3 2 3 1 1 2 4 3 3 4
## 110 111 112 113 114 115 116 117 118 119 121 122 123 124 127 131
## 1 4 4 2 3 3 1 2 2 4 2 3 2 3 4 2
## 132 133 136 137 138 139 143 144 145 146 147 149 150 151 152 157
## 3 1 2 3 2 2 3 4 2 4 3 3 3 3 2 2
## 159 160 163 164 165 167 169 170 171 175 176 177 178 179 180 182
## 2 3 4 4 2 2 2 1 3 3 1 2 1 3 2 3
## 183 186 187 191 192 194 196 197 198 201 202 203 204 205 207 208
## 2 2 4 1 2 4 2 2 2 4 2 3 3 3 4 3
## 209 210 211 212 214 215 216 219 220 221 222 223 225 226 227 228
## 1 2 4 2 3 1 4 1 2 3 2 3 2 2 4 3
## 230 231 233 235 236 238 239 241 242 243 244 245 247 250 252 253
## 2 3 3 4 2 1 3 3 4 1 2 2 4 4 1 4
## 254 255 256 257 258 259 260 262 263 264 266 267 268 269 270 271
## 4 2 2 2 2 2 4 2 3 3 3 1 2 2 4 3
## 272 273 274 275 276 279 281 282 284 285 290 291 293 297 298 299
## 2 2 2 1 2 2 1 3 2 2 3 3 2 4 4 3
## 300 302 303 307 310 311 313 316 317 318 319 323 325 326 327 328
## 3 3 4 4 2 2 2 1 2 1 4 1 2 2 4 3
## 330 331 332 334 336 337 338 339 341 342 343 345 346 349 350 358
## 3 2 2 1 2 2 4 3 1 2 3 2 1 2 3 2
## 361 362 363 364 365 366 368 374 375 376 377 378 379 381 384 385
## 3 3 1 2 4 3 3 3 4 2 4 2 4 2 3 2
## 386 388 389 392 393 394 395 398 399 402 406 407 409 410 411 412
## 2 2 2 1 1 3 3 4 1 2 3 2 3 4 2 4
## 413 414 415 417 419 420 421 422 423 424 426 428 429 430 433 435
## 1 3 2 1 2 4 2 4 3 3 2 2 3 3 4 1
## 436 437 439 441 442 444 445 446 447 449 450 452 453 455 456 457
## 2 2 2 2 2 2 1 1 4 3 3 3 2 2 2 2
## 459 461 464 465 467 468 469 470 472 475 477 478 484 485 486 488
## 3 4 1 3 3 3 2 2 2 3 4 2 2 4 2 2
## 489 490 491 493 494 495 497 498 500 501 502 504 505 508 513 514
## 4 1 4 2 1 2 1 4 2 2 3 4 3 1 2 2
## 515 516 518 519 522 524 526 527 529 530 531 533 534 535 536 537
## 4 2 1 4 4 2 1 1 3 4 2 3 2 2 3 3
## 540 541 542 546 550 551 553 555 556 557 560 561 562 564 566 567
## 3 3 1 2 2 2 4 2 3 3 2 3 2 2 2 4
## 573 574 575 576 580 581 583 584 587 589 592 595 597 598 599 602
## 4 4 3 2 3 2 4 2 2 3 4 2 2 3 2 4
## 603 606 607 609 612 613 614 615 616 621 623 626 627 628 629 631
## 2 2 4 2 4 2 2 3 2 2 2 3 4 2 1 3
## 632 633 635 637 638 639 640 644 645 646 648 649 651 654 655 656
## 4 2 4 1 2 4 4 4 2 2 3 1 3 3 1 2
## 658 659 660 662 664 665 667 669 671 672 673 674 675 677 679 680
## 2 1 4 4 2 2 3 3 2 3 1 1 3 1 4 3
## 682 683 684 689 690 693 694 696 698 700 702 704 706 707 708 710
## 3 3 4 3 3 4 3 2 2 2 4 1 2 1 3 1
## 711 712 714 715 716 717 719 720 725 726 727 728 729 731 737 738
## 4 1 3 1 2 3 4 1 3 4 2 1 2 4 1 2
## 739 740 741 742 743 744 745 746 747 748 750 753 754 755 756 757
## 3 4 3 3 3 2 4 2 2 2 2 2 2 2 3 4
## 758 759 760 761 762 763 766 768 770 771 774 776 777 778 785 786
## 3 3 3 3 2 4 4 3 1 2 2 2 4 4 2 4
## 789 791 793 797 798 799 800 801 802 803 805 806 807 810 811 813
## 1 2 2 2 4 4 2 3 4 2 1 3 2 2 3 3
## 814 816 820 821 822 823 827 828 830 831 832 835 837 838 840 842
## 2 1 4 2 1 2 3 2 4 2 2 2 3 4 2 2
## 846 847 848 849 850 851 852 853 854 855 858 859 860 861 864 866
## 2 2 4 3 2 3 2 2 2 3 3 2 4 4 4 4
## 868 869 872 873 874 875 878 884 887 891 893 894 895 896 897 901
## 3 1 3 1 2 4 2 3 3 4 2 4 4 2 4 2
## 905 906 910 912 915 916 918 920 921 923 924 928 931 933 934 936
## 1 2 2 3 2 4 1 3 1 4 2 3 4 3 3 4
## 937 939 940 941 943 944 945 946 947 948 949 951 952 955 956 957
## 3 2 4 3 3 2 4 3 2 1 3 3 2 2 2 3
## 959 960 961 965 966 968 969 971 972 974 975 976 982 984 985 986
## 2 4 3 4 4 2 3 4 2 3 2 3 2 1 3 3
## 988 990 991 992 994 998 999 1000 1001 1002 1003 1004 1006 1007 1009 1010
## 4 2 3 3 3 4 3 2 4 2 3 4 1 4 2 2
## 1011 1012 1014 1015 1016 1019 1020 1021 1022 1023 1024 1026 1028 1030 1031 1033
## 1 2 4 4 4 3 2 4 3 2 3 3 3 2 1 3
## 1034 1035 1036 1037 1038 1039 1041 1043 1044 1046 1047 1048 1050 1052 1053 1055
## 1 3 3 2 2 3 4 1 1 2 1 2 2 2 2 1
## 1056 1057 1058 1059 1061 1062 1063 1065 1068 1071 1073 1077 1078 1079 1080 1082
## 3 2 2 2 2 2 3 4 4 1 3 3 2 3 4 2
## 1083 1084 1086 1087 1088 1089 1090 1091 1093 1096 1097 1100 1102 1103 1104 1105
## 2 2 3 4 1 2 2 1 2 4 4 2 3 2 2 2
## 1106 1115 1117 1118 1119 1120 1123 1124 1129 1130 1131 1134 1136 1137 1139 1140
## 2 2 2 1 2 3 2 4 4 2 2 4 2 3 3 2
## 1141 1142 1143 1145 1146 1148 1149 1151 1152 1153 1155 1156 1158 1160 1162 1163
## 1 3 4 4 3 3 4 4 3 3 2 3 2 2 3 2
## 1167 1169
## 2 4
##
## Within cluster sum of squares by cluster:
## [1] 575.6701 467.9795 493.3340 373.5606
## (between_SS / total_SS = 48.0 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Los centroides de los clusters representan los valores medios de las variables en cada grupo. Las observaciones se asignan al cluster cuyo centroide está más cerca en términos de distancia Euclidiana. ### Visualización de Clusters
Los clusters se visualizan en un espacio de 2 dimensiones, con elipses
convexas que representan la dispersión de los datos en cada grupo. Los
colores y etiquetas indican la asignación de observaciones a cada
cluster.
## cluster size ave.sil.width
## 1 1 89 0.06
## 2 2 280 0.41
## 3 3 191 0.20
## 4 4 146 0.21
Se observa que los clusters tienen un tamaño similar y que la mayoría de
las observaciones tienen un coeficiente de silueta positivo, lo que
indica que están bien asignadas a sus respectivos grupos.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.8083 1.0134 0.9756 0.7897 0.74894 0.59485 0.46114
## Proportion of Variance 0.4672 0.1467 0.1360 0.0891 0.08013 0.05055 0.03038
## Cumulative Proportion 0.4672 0.6139 0.7498 0.8389 0.91907 0.96962 1.00000
El análisis de componentes principales (PCA) permite reducir la dimensionalidad de los datos y visualizar la estructura subyacente. Los resultados muestran la varianza explicada por cada componente y la importancia de las variables en la formación de los ejes principales.
El gráfico de valores propios muestra la proporción de varianza
explicada por cada componente principal. En este caso, los dos primeros
componentes explican la mayor parte de la varianza en los datos.